Wiek jest skorelowany ze śmiercią. Mężczyźni częściej umierają.
Najistotniejsze atrybuty skorelowane z tym, że chory przeżyje to:Wysoki poziom wapnia w krwii nazywany jest hiperkalcemią, która może być następstwem przedawkowania witamin A oraz D. Obserwacja ta pokrywa się z wnioskami lekarzy, którzy sugerują suplementować witaminę D jako zwiększającą szanse na bezpieczne przejście choroby.
Najistotniejsze atrybuty skorelowane z tym, że chory umrze to:Wśród wymienionych biomarkeórów mamy takie oznaczających rozpad komórek, problemy z krzepnięciem krwii oraz oznaczające stan zapalny organizmu.
Zebrane dane umożliwiaja stworzenie dzialajacego skutecznie klasyfikatora.
Dane zostały zebrane między 10 stycznia a 18 lutego 2020 roku i obejmują informacje o wynikach badań krwi pacjentów przyjętych do szpitala Tongji w Wuhan w Chinach. Sposób zbierania danych oraz podstawowe statystyki zbioru opisane są w artykule Tan et al article. Celem przeprowadzonej analizy będzie zbadanie czynników wpływających na śmiertelność oraz stworzenie klasyfikatora przewidującego, czy dana osoba przeżyje, czy nie. Dane zawierają 82 kolumny z danymi dotyczącymi czasu, wieku, płci, danych próbek krwi i 6120 wierszy. Wiersze zawieraj wyniki poszczególnych badań krwi, czasami wiele wierszy dotyczy tej samej osoby. Dane zawierają informacje o 375 osobach chorych.
Podsumowanie statystyk danych pacjentów:
| patient_id | age | gender | admission_time | discharge_time | death | days_in_hospital | |
|---|---|---|---|---|---|---|---|
| Min. : 1.0 | Min. :18.00 | male :224 | Min. :2020-01-10 15:52:20 | Min. :2020-01-23 09:09:23 | FALSE:201 | Min. : 0.0847 | |
| 1st Qu.: 94.5 | 1st Qu.:46.00 | female:151 | 1st Qu.:2020-02-01 19:27:40 | 1st Qu.:2020-02-11 13:39:21 | TRUE :174 | 1st Qu.: 4.4845 | |
| Median :188.0 | Median :62.00 | NA | Median :2020-02-04 22:30:34 | Median :2020-02-16 17:40:07 | NA | Median : 9.5942 | |
| Mean :188.0 | Mean :58.83 | NA | Mean :2020-02-04 20:13:51 | Mean :2020-02-15 16:42:59 | NA | Mean :10.8536 | |
| 3rd Qu.:281.5 | 3rd Qu.:70.00 | NA | 3rd Qu.:2020-02-10 04:11:10 | 3rd Qu.:2020-02-19 11:47:14 | NA | 3rd Qu.:15.6876 | |
| Max. :375.0 | Max. :95.00 | NA | Max. :2020-02-17 21:30:07 | Max. :2020-03-04 16:21:51 | NA | Max. :35.1708 |
Dane pokazują, że choroba jest bardziej śmiertelna dla mężczyzn. Ponadto dane obejmują znacznie więcej mężczyzn niż kobiet, co może oznaczać, że kobiety są bardziej odporne na chorobę lub mają często na tyle słabe objawy, że nie trafiają w ogóle do szpitali i są rzadziej badane.
Podsumowanie statystyk wszystkich dostępnych atrybutów:
| patient_id | re_date | age | gender | admission_time | discharge_time | death | hypersensitive_cardiac_troponin_i | hemoglobin | serum_chloride | prothrombin_time | procalcitonin | eosinophils | interleukin_2_receptor | alkaline_phosphatase | albumin | basophil | interleukin_10 | total_bilirubin | platelet_count | monocytes | antithrombin | interleukin_8 | indirect_bilirubin | red_blood_cell_distribution_width | neutrophils | total_protein | quantification_of_treponema_pallidum_antibodies | prothrombin_activity | h_bs_ag | mean_corpuscular_volume | hematocrit | white_blood_cell_count | tumor_necrosis_factor_u_03b1 | mean_corpuscular_hemoglobin_concentration | fibrinogen | interleukin_1ss | urea | lymphocyte_count | ph_value | red_blood_cell_count | eosinophil_count | corrected_calcium | serum_potassium | glucose | neutrophils_count | direct_bilirubin | mean_platelet_volume | ferritin | rbc_distribution_width_sd | thrombin_time | x_lymphocyte | hcv_antibody_quantification | d_d_dimer | total_cholesterol | aspartate_aminotransferase | uric_acid | hco3 | calcium | amino_terminal_brain_natriuretic_peptide_precursor_nt_pro_bnp | lactate_dehydrogenase | platelet_large_cell_ratio | interleukin_6 | fibrin_degradation_products | monocytes_count | plt_distribution_width | globulin | x_u_03b3_glutamyl_transpeptidase | international_standard_ratio | basophil_count | x2019_n_co_v_nucleic_acid_detection | mean_corpuscular_hemoglobin | activation_of_partial_thromboplastin_time | high_sensitivity_c_reactive_protein | hiv_antibody_quantification | serum_sodium | thrombocytocrit | esr | glutamic_pyruvic_transaminase | e_gfr | creatinine | days_in_hospital | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. : 1.0 | Min. :2020-01-10 19:45:00 | Min. :18.00 | male :3730 | Min. :2020-01-10 15:52:20 | Min. :2020-01-23 09:09:23 | FALSE:3215 | Min. : 1.9 | Min. : 6.4 | Min. : 71.5 | Min. : 11.5 | Min. : 0.020 | Min. :0.0000 | Min. : 61.0 | Min. : 17.0 | Min. :13.60 | Min. :0.0000 | Min. : 5.00 | Min. : 2.50 | Min. : -1.0 | Min. : 0.300 | Min. : 20.00 | Min. : 5.00 | Min. : 0.100 | Min. :10.60 | Min. : 1.70 | Min. :31.80 | Min. : 0.0200 | Min. : 6.00 | Min. : 0.000 | Min. : 61.60 | Min. :14.50 | Min. : 0.130 | Min. : 4.00 | Min. :286.0 | Min. : 0.500 | Min. : 5.000 | Min. : 0.800 | Min. : 0.000 | Min. :5.000 | Min. : 0.100 | Min. :0.00000 | Min. :1.650 | Min. : 2.760 | Min. : 1.000 | Min. : 0.060 | Min. : 1.600 | Min. : 8.50 | Min. : 17.8 | Min. : 31.30 | Min. : 13.00 | Min. : 0.00 | Min. :0.0200 | Min. : 0.210 | Min. :0.100 | Min. : 6.00 | Min. : 43.0 | Min. : 6.30 | Min. :1.170 | Min. : 5 | Min. : 110.0 | Min. :11.20 | Min. : 1.50 | Min. : 4.00 | Min. : 0.0100 | Min. : 8.00 | Min. :10.1 | Min. : 3.00 | Min. : 0.840 | Min. :0.00000 | Min. :-1 | Min. :20.40 | Min. : 21.80 | Min. : 0.10 | Min. :0.05000 | Min. :115.4 | Min. :0.010 | Min. : 1.00 | Min. : 5.00 | Min. : 2.00 | Min. : 11.0 | Min. : 0.0847 | |
| 1st Qu.: 92.0 | 1st Qu.:2020-02-04 13:46:00 | 1st Qu.:47.00 | female:2390 | 1st Qu.:2020-02-01 00:06:16 | 1st Qu.:2020-02-13 19:06:26 | TRUE :2905 | 1st Qu.: 3.5 | 1st Qu.:113.0 | 1st Qu.: 99.4 | 1st Qu.: 13.5 | 1st Qu.: 0.040 | 1st Qu.:0.0000 | 1st Qu.: 577.0 | 1st Qu.: 54.0 | 1st Qu.:27.70 | 1st Qu.:0.1000 | 1st Qu.: 5.00 | 1st Qu.: 7.40 | 1st Qu.:107.0 | 1st Qu.: 2.800 | 1st Qu.: 83.00 | 1st Qu.: 12.30 | 1st Qu.: 3.800 | 1st Qu.:12.00 | 1st Qu.:64.20 | 1st Qu.:61.10 | 1st Qu.: 0.0400 | 1st Qu.: 67.00 | 1st Qu.: 0.000 | 1st Qu.: 87.00 | 1st Qu.:33.30 | 1st Qu.: 5.258 | 1st Qu.: 7.60 | 1st Qu.:332.0 | 1st Qu.: 3.260 | 1st Qu.: 5.000 | 1st Qu.: 3.900 | 1st Qu.: 0.470 | 1st Qu.:6.000 | 1st Qu.: 3.640 | 1st Qu.:0.00000 | 1st Qu.:2.270 | 1st Qu.: 3.990 | 1st Qu.: 5.360 | 1st Qu.: 3.330 | 1st Qu.: 3.200 | 1st Qu.:10.20 | 1st Qu.: 595.8 | 1st Qu.: 38.70 | 1st Qu.: 15.80 | 1st Qu.: 3.70 | 1st Qu.:0.0500 | 1st Qu.: 0.510 | 1st Qu.:3.050 | 1st Qu.: 19.00 | 1st Qu.: 184.0 | 1st Qu.:21.10 | 1st Qu.:1.990 | 1st Qu.: 100 | 1st Qu.: 211.0 | 1st Qu.:26.10 | 1st Qu.: 12.59 | 1st Qu.: 5.10 | 1st Qu.: 0.2900 | 1st Qu.:11.20 | 1st Qu.:29.6 | 1st Qu.: 22.00 | 1st Qu.: 1.020 | 1st Qu.:0.01000 | 1st Qu.:-1 | 1st Qu.:29.70 | 1st Qu.: 35.90 | 1st Qu.: 3.60 | 1st Qu.:0.08000 | 1st Qu.:138.0 | 1st Qu.:0.140 | 1st Qu.: 17.00 | 1st Qu.: 16.00 | 1st Qu.: 67.50 | 1st Qu.: 58.0 | 1st Qu.: 8.2890 | |
| Median :185.0 | Median :2020-02-09 12:50:00 | Median :62.00 | NA | Median :2020-02-04 15:53:12 | Median :2020-02-17 21:50:30 | NA | Median : 19.9 | Median :125.0 | Median :102.3 | Median : 14.4 | Median : 0.120 | Median :0.2000 | Median : 977.5 | Median : 70.0 | Median :32.40 | Median :0.2000 | Median : 12.60 | Median : 10.60 | Median :187.0 | Median : 5.700 | Median : 86.33 | Median : 35.10 | Median : 5.500 | Median :12.70 | Median :81.50 | Median :66.00 | Median : 0.0600 | Median : 85.00 | Median : 0.010 | Median : 90.40 | Median :36.63 | Median : 8.105 | Median : 11.45 | Median :342.0 | Median : 4.295 | Median : 5.000 | Median : 5.600 | Median : 0.850 | Median :6.347 | Median : 4.150 | Median :0.01000 | Median :2.370 | Median : 4.450 | Median : 7.115 | Median : 6.050 | Median : 4.800 | Median :10.90 | Median : 1425.3 | Median : 41.10 | Median : 17.00 | Median :11.85 | Median :0.0700 | Median : 1.710 | Median :3.660 | Median : 26.00 | Median : 245.0 | Median :23.80 | Median :2.100 | Median : 810 | Median : 322.0 | Median :31.80 | Median : 62.06 | Median : 57.14 | Median : 0.4200 | Median :12.70 | Median :32.7 | Median : 34.00 | Median : 1.110 | Median :0.01000 | Median :-1 | Median :30.90 | Median : 40.30 | Median : 44.20 | Median :0.09000 | Median :140.6 | Median :0.210 | Median : 35.00 | Median : 25.00 | Median : 89.60 | Median : 75.0 | Median :12.4998 | |
| Mean :184.8 | Mean :2020-02-08 07:09:59 | Mean :59.44 | NA | Mean :2020-02-03 18:57:56 | Mean :2020-02-16 21:40:09 | NA | Mean : 991.8 | Mean :124.4 | Mean :103.1 | Mean : 16.0 | Mean : 1.079 | Mean :0.7661 | Mean : 977.5 | Mean : 83.2 | Mean :32.21 | Mean :0.2279 | Mean : 16.82 | Mean : 16.29 | Mean :190.2 | Mean : 6.125 | Mean : 86.33 | Mean : 95.97 | Mean : 6.793 | Mean :13.13 | Mean :77.25 | Mean :65.44 | Mean : 0.1673 | Mean : 81.53 | Mean : 6.021 | Mean : 90.53 | Mean :36.63 | Mean : 15.217 | Mean : 12.26 | Mean :342.2 | Mean : 4.295 | Mean : 6.447 | Mean : 9.086 | Mean : 1.033 | Mean :6.347 | Mean : 9.288 | Mean :0.04669 | Mean :2.357 | Mean : 4.503 | Mean : 8.880 | Mean : 8.126 | Mean : 9.522 | Mean :11.02 | Mean : 1537.3 | Mean : 42.62 | Mean : 17.82 | Mean :15.63 | Mean :0.1051 | Mean : 6.973 | Mean :3.722 | Mean : 47.93 | Mean : 276.1 | Mean :23.39 | Mean :2.091 | Mean : 2999 | Mean : 466.3 | Mean :32.64 | Mean : 125.69 | Mean : 57.14 | Mean : 0.5139 | Mean :13.35 | Mean :33.2 | Mean : 54.36 | Mean : 1.272 | Mean :0.01884 | Mean :-1 | Mean :30.99 | Mean : 40.76 | Mean : 71.17 | Mean :0.09534 | Mean :141.5 | Mean :0.211 | Mean : 35.11 | Mean : 38.91 | Mean : 83.31 | Mean : 104.9 | Mean :13.1127 | |
| 3rd Qu.:270.0 | 3rd Qu.:2020-02-13 10:36:00 | 3rd Qu.:71.00 | NA | 3rd Qu.:2020-02-09 02:06:58 | 3rd Qu.:2020-02-19 13:30:26 | NA | 3rd Qu.: 968.2 | 3rd Qu.:137.0 | 3rd Qu.:105.5 | 3rd Qu.: 16.2 | 3rd Qu.: 0.630 | 3rd Qu.:1.1000 | 3rd Qu.: 996.0 | 3rd Qu.: 96.0 | 3rd Qu.:37.00 | 3rd Qu.:0.3000 | 3rd Qu.: 16.82 | 3rd Qu.: 16.40 | 3rd Qu.:257.0 | 3rd Qu.: 8.700 | 3rd Qu.: 91.00 | 3rd Qu.: 95.97 | 3rd Qu.: 7.900 | 3rd Qu.:13.70 | 3rd Qu.:92.60 | 3rd Qu.:70.50 | 3rd Qu.: 0.1100 | 3rd Qu.: 97.00 | 3rd Qu.: 0.020 | 3rd Qu.: 94.20 | 3rd Qu.:39.90 | 3rd Qu.: 13.325 | 3rd Qu.: 12.26 | 3rd Qu.:349.0 | 3rd Qu.: 5.190 | 3rd Qu.: 6.447 | 3rd Qu.:10.760 | 3rd Qu.: 1.460 | 3rd Qu.:6.500 | 3rd Qu.: 4.700 | 3rd Qu.:0.07000 | 3rd Qu.:2.450 | 3rd Qu.: 4.840 | 3rd Qu.:10.280 | 3rd Qu.:11.260 | 3rd Qu.: 8.000 | 3rd Qu.:11.60 | 3rd Qu.: 1537.3 | 3rd Qu.: 44.70 | 3rd Qu.: 17.90 | 3rd Qu.:25.60 | 3rd Qu.:0.1051 | 3rd Qu.:15.840 | 3rd Qu.:4.310 | 3rd Qu.: 41.00 | 3rd Qu.: 332.0 | 3rd Qu.:26.20 | 3rd Qu.:2.200 | 3rd Qu.: 2999 | 3rd Qu.: 597.0 | 3rd Qu.:37.80 | 3rd Qu.: 125.69 | 3rd Qu.: 57.14 | 3rd Qu.: 0.6025 | 3rd Qu.:14.70 | 3rd Qu.:36.5 | 3rd Qu.: 58.00 | 3rd Qu.: 1.290 | 3rd Qu.:0.02000 | 3rd Qu.:-1 | 3rd Qu.:32.20 | 3rd Qu.: 42.90 | 3rd Qu.:113.10 | 3rd Qu.:0.10000 | 3rd Qu.:143.2 | 3rd Qu.:0.270 | 3rd Qu.: 43.00 | 3rd Qu.: 41.00 | 3rd Qu.:105.00 | 3rd Qu.: 97.0 | 3rd Qu.:17.6000 | |
| Max. :375.0 | Max. :2020-02-18 17:49:00 | Max. :95.00 | NA | Max. :2020-02-17 21:30:07 | Max. :2020-03-04 16:21:51 | NA | Max. :50000.0 | Max. :178.0 | Max. :140.4 | Max. :120.0 | Max. :57.170 | Max. :8.6000 | Max. :7500.0 | Max. :620.0 | Max. :48.60 | Max. :1.7000 | Max. :1000.00 | Max. :505.70 | Max. :558.0 | Max. :53.000 | Max. :136.00 | Max. :6795.00 | Max. :145.100 | Max. :27.10 | Max. :98.90 | Max. :88.70 | Max. :11.9500 | Max. :142.00 | Max. :250.000 | Max. :118.90 | Max. :52.30 | Max. :1726.600 | Max. :168.00 | Max. :514.0 | Max. :10.780 | Max. :88.500 | Max. :68.400 | Max. :52.420 | Max. :7.565 | Max. :749.500 | Max. :0.49000 | Max. :2.790 | Max. :12.800 | Max. :43.010 | Max. :33.880 | Max. :360.600 | Max. :15.00 | Max. :50000.0 | Max. :113.30 | Max. :161.90 | Max. :60.00 | Max. :2.0900 | Max. :60.000 | Max. :7.300 | Max. :1858.00 | Max. :1176.0 | Max. :36.30 | Max. :2.620 | Max. :70000 | Max. :1867.0 | Max. :62.20 | Max. :5000.00 | Max. :190.80 | Max. :39.9200 | Max. :25.30 | Max. :50.6 | Max. :732.00 | Max. :13.480 | Max. :0.12000 | Max. :-1 | Max. :50.80 | Max. :144.00 | Max. :320.00 | Max. :0.27000 | Max. :179.7 | Max. :0.510 | Max. :110.00 | Max. :1600.00 | Max. :224.00 | Max. :1497.0 | Max. :35.1708 |
Niektóre brakujące dane zostały zastąpione średnią, a brakujące re_date zostały zastąpione admission_time.
Wykres przedstawia korelację biomerkerów krwi ze śmiertelnością. Wybrane zostay tylko atrybuty o bezwzględnej wartości korelacji większej niż 0,6. Dodatnia korelacja ze śmiertelnością oznacza, że osoba prawdopodobnie umrze, ujemna korelacja oznacza, że prawdopodobnie przeżyje.
Podczas uczenia klasyfikatora dane podzielono na zbiór uczący (75% danych) i zestaw testowy (25% danych). Wybrany algorytm to Random Forest. Dane zawierają najważniejsze biomarkery: prothrombin_time, albumin, platelet_count, monocytes, neutrophils, prothrombin_activity, urea, lymphocyte_count, neutrophils_count, x_lymphocyte, d_d_dimer, calcium, lactate_dehydrogenase, international_standard_ratio oraz high_sensitivity_c_reactive_protein.
## Confusion Matrix and Statistics
##
## Reference
## Prediction FALSE TRUE
## FALSE 792 6
## TRUE 11 720
##
## Accuracy : 0.9889
## 95% CI : (0.9823, 0.9935)
## No Information Rate : 0.5252
## P-Value [Acc > NIR] : <2e-16
##
## Kappa : 0.9777
##
## Mcnemar's Test P-Value : 0.332
##
## Sensitivity : 0.9863
## Specificity : 0.9917
## Pos Pred Value : 0.9925
## Neg Pred Value : 0.9850
## Prevalence : 0.5252
## Detection Rate : 0.5180
## Detection Prevalence : 0.5219
## Balanced Accuracy : 0.9890
##
## 'Positive' Class : FALSE
##
Stworzony klasyfikator ma ponad 98% dokładności, co jest wynikiem dobrym. Niestety, istnieją przypadki zarówno false positive oraz true negative.